Aperçu et paysage de l'évolution architecturale

Nous passons du succès fondamental d'AlexNet à l'ère des réseaux profonds extrêmes réseaux de neurones convolutifs (CNN). Ce changement a exigé des innovations architecturales profondes pour gérer une profondeur extrême tout en maintenant la stabilité de l'apprentissage. Nous analyserons trois architectures emblématiques—VGG, GoogLeNet (Inception), et ResNet—en comprenant comment chacune a résolu des aspects différents du problème d'échelle, posant les bases d'une interprétabilité rigoureuse des modèles ultérieurement dans cette leçon.

1. Simplicité structurelle : VGG

VGG a introduit le paradigme de maximisation de la profondeur en utilisant des tailles de noyaux extrêmement uniformes et petites (exclusivement filtres convolutifs 3x3 empilés). Bien que coûteux en calcul, son uniformité structurelle a prouvé que la profondeur brute, obtenue par une variation architecturale minimale, était un moteur principal des améliorations de performance, renforçant l'importance des champs réceptifs petits.

2. Efficacité computationnelle : GoogLeNet (Inception)

GoogLeNet a contré le coût computationnel élevé de VGG en privilégiant l'efficacité et l'extraction de caractéristiques à plusieurs échelles. L'innovation centrale est le module Inception, qui effectue des convolutions parallèles (1x1, 3x3, 5x5) et des opérations de pooling. Critiquement, il utilise les convolutions 1x1 comme goulots d'étranglement pour réduire considérablement le nombre de paramètres et la complexité computationnelle avant les opérations coûteuses.

Défi ingénierie clé

Apprentissage résiduel : ResNet

ResNet a résolu le problème de dégradation en introduisant une application identité (connexion sautée). Cette courte-circuit non séquentielle permet au réseau d'apprendre une fonction résiduelle $F(x)$ au lieu d'une application directe $H(x)$, garantissant ainsi que l'ajout de couches supplémentaires ne peut qu'améliorer ou maintenir les performances, améliorant considérablement la stabilité de l'optimisation.

Diagram showing a ResNet skip connection architecture

Question 1

Quelle architecture a mis l'accent sur l'uniformité structurelle en utilisant principalement des filtres 3x3 pour maximiser la profondeur ?

AlexNet

VGG

GoogLeNet

ResNet

Question 2

La convolution 1x1 est principalement utilisée dans le module Inception pour quelle finalité fondamentale ?

Augmenter la résolution de la carte des caractéristiques

Activation non linéaire

Réduction de dimensionnalité (goulot d'étranglement)

Attention spatiale

Défi critique : gradients qui s'effacent

Solutions d'ingénierie pour l'optimisation

Expliquez comment la correspondance d'identité de ResNet aborde fondamentalement le problème des gradients qui s'effacent au-delà de techniques telles que l'initialisation améliorée des poids ou la normalisation par lots.

Décrivez le mécanisme par lequel la connexion sautée stabilise le flux de gradient lors de la rétropropagation.

Solution :
La connexion sautée introduit un terme d'identité ($+x$) dans la sortie, créant un terme additif dans le chemin du gradient ($\frac{\partial \text{Loss}}{\partial H} = \frac{\partial \text{Loss}}{\partial F} + 1$). Ce terme assure un chemin direct pour que le signal de gradient remonte, garantissant que les poids amont reçoivent un signal de gradient non nul et utilisable, indépendamment de la taille des gradients traversant la fonction résiduelle $F(x)$.